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(57) Abstract 

Known methods for instrumental voice quality 
evaluation based on comparing signal intensities of the 
voice signal to be evaluated with a reference voice 
signal do not optimally evaluate spectral distortions 
in the voice signal to be evaluated so that quality 
evaluation is unreliable. Moreover, by integrating the 
signal intensity in the frequency bands with constant 
band limits, certain falsifications of the voice signal 
to be evaluated, such as those caused, for instance, by 
coding systems with lower bit rates, are erroneously 
evaluated. In order to enhance prediction reliability 
of the evaluated quality parameters, distortions of the 
mean spectral envelope are extensively corrected with 
a weighting function Wr(f) before comparing spectral 
properties. On the other hand, the fixed band limits for 
integration of spectral power density are suppressed 
and other band limits are searched for instead in a 

predetermined optimization area in which the resulting spectral intensity representations of the voice signal to be evaluated and the reference 
voice signal have maximum similarity. The solutions described can supplement known methods and can be incorporated into their structures. 
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(57) Zusammenfassung 

Bekannte Verfahren zur instrumentellen Sprachqualitatsbestimmung auf d&r Basis eines Vergleichs von Signal intensitaten des zu 
bewertenden Sprachsignals mit einem Referenzsprachsignal bewerten spektrale Verformungen des zu bewertenden Sprachsignals nicht 
optimal, so dass die Qualitatsbewertung unsicher ist. Des weiteren werden durch die Integration der Signal intensitat in Frequenzbandern mit 
konstanten Bandgrenzen bestimmte Verfalschungen des zu bewertenden Sprachsignals, wie sie z.B. durch Codiersysteme niederer Bitraten 
hervorgerufen werden, fehlerhaft bewertet. Um die Aussagesicherheit der berechneten Qualitatskennwerte zu erhohen, werden zum einen 
Verformungen der mittleren spektralen EinhOUenden vor einem Vergleich der spektralen Eigenschaften mit einer Wichtungsfunktion Wr(f) 
weitgehend korrigiert. Zum anderen werden die festen Bandgrenzen zur Integration der spektralen Leistungsdichte aufgehoben und statt 
dessen in einem vorgegebenen Optimierungsbereich Bandgrenzen gesucht, bei denen die sich ergebenden spektralen Intensitatsabbildungen 
von zu bewertendem Sprachsignal und Referenzprach signal eine maximale Ahnlichkeit aufweisen. Die beschriebenen Losungen konnen 
bekannte Verfahren erweitem und zu deren Struktur hinzugefugt werden. 
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Verfahren zur instrumentellen Sprachquaiitatsbestimmung 
Beschreibung 

5 Vorbemerkung 

Die Erfindung bezieht sich auf ein Verfahren zur instrumentellen ("objektiven") 
Sprachquaiitatsbestimmung, bei dem durch Vergleich von Eigenschaflen eines zu 
bewertenden Sprachsignals mit Eigenschaften eines Referenzsprachsignals (ungestortes 
Signal) Kennwerte zur Bestimmung der Sprachqualitat (Sprachgiite) abgeleitet werden. 

10 

Sprachqualitatsbestimmungen von Sprachsignalen werden in der Regel mittels auditiver 
("subjektiver") Untersuchungen mit Versuchspersonen vorgenommen. 

Das Ziel von instrumentellen ("objektiven") Verfahren zur Sprachquaiitatsbestimmung ist 
15 es, aus Eigenschaften des zu bewertenden Sprachsignals mittels geeigneter Rechenverfahren 
Kennwerte zu ermitteln, die die Sprachqualitat des zu bewertenden Sprachsignals 
beschreiben, ohne auf Urteile von Versuchspersonen zuriickgreifen zu miissen. 

Die berechneten Kennwerte und das zugrunde gelegte Verfahren zur instrumentellen 
20 Sprachquaiitatsbestimmung gelten als anerkannt, wenn eine hohe Korrelation zu 

Ergebnissen auditiver Vergleichsuntersuchungen erreicht wird. Die mittels auditiver 
Untersuchungen gewonnenen Sprachqualitatswerte stellen somit die Zielwerte dar, die 
durch instrumentelle Verfahren erreicht werden sollen. 

25 Stand der Technik 

Bekannte Verfahren zur instrumentellen Sprachquaiitatsbestimmung beruhen auf einem 
Vergleich eines Referenzsprachsignals mit dem zu bewertenden Sprachsignal. Dabei werden 
das Referenzsprachsignal und das zu bewertendes Sprachsignal in kurze Zeitabschnitte 
segmentiert. In diesen Segmenten werden die spektralen Eigenschaften der beiden Signale 
30 verglichen. 

Fur die Berechnung der spektralen Kurzzeiteigenschaften kommen verschiedene Ansatze 
und Modelle zur Anwendung. In der Regel erfolgt die Berechnung der Signalintensitat in 
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Frequenzbandern, deren Breite mit zunehmender Mittenfrequenz groBer wird. Beispiele fur 
solche Frequenzbander sind die bekannten Terzbander oder Frequenzgruppen nach Zwicker 
(veroffentlicht in Zwicker, E.: "Psychoakustik", Berlin: Springer- Verlag, 1982). 

5 Die derart berechnete spektrale Intensitatsabbildung fiir jeden betrachteten Zeitabschnitt 


laBt sich als Reihe von Zahienwerten aufFassen, in der die Anzahl der Einzelwerte der 
Anzahl der verwendeten Frequenzbander entspricht, die Zahlenwerte selbst die berechneten 
Intensitatswerte darstellen und ein fortlaufender Index der Frequenzbander die Reihenfolge 
der Zahlenwerte beschreibt. 

10 

Bei den derzeit bekannten Verfahren zur instrumentellen Sprachqualitatsbestimmung 
werden die Grenzen der benutzten Frequenzbander auf der Frequenzachse konstant 
gehalten. 

15 In jedem betrachteten Zeitsegment werden die berechneten Intensitaten von zu bewertenden 
Sprachsignal und Referenzsprachsignal in jedem Band miteinander verglichen. Die Differenz 
beider Werte, bzw. die Ahnlichkeit der beiden entstehenden spektralen 
Intensitatsabbildungen, stellt die Grundlage fur die Berechnung eines Qualitatswertes dar 


Solche Verfahren wurden insbesondere fur die qualitative Bewertung der Sprache in der 
Telefonieanwendung entwickelt. Beispiele hierfur sind die Veroffentlichungen: 

"A perceptual speech-quality measure based on a psychacoustic sound representation" 
25 (Beerends, J. G.; Stemerdink, J. A., J. Audio Eng. Soc. 42(1994)3, S. 115-123) 

"Auditory distortion measure for speech coding" (Wang, S; Sekey, A.; Gersho, A.: IEEE 
Proc. Int. Conf acoust., speech and signalprocessing (1991), S. 493-496). 

30 Der derzeit gultige ITU-T Standard P.861 beschreibt ebenfalls ein derartiges Verfahren: 
"Objective quality measurement of telephone-band speech codecs" (ITU-T Rec. P.861, 


(Fig. 1). 


20 


Genf 1996). 
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Nachteile bekannter instrumenteller SprachqualitatsmeOverfahren 

Der Einsatz von bekannten Verfahren zur instrumentellen Sprachqualitatsbestimmung 
scheitert an der Zuverlassigkeit der berechneten Qualitatswerte fiir bestimmte zu 
bewertende Signaleigenschaften. Insbesondere bei Beeintrachtigungen im zu bewertenden 
5 Sprachsignal, wie sie z.B. durch Sprachcodierverfahren mit niedrigen Bitraten oder 
Kombinationen von unterschiedlichen Storungen hervorgerufen werden, liefern derzeit 
bekannte Verfahren nur unsichere Qualitatswerte. 

Nachteilig bei den heute bekannten Verfahren ist in solchen Fallen, daB bei einem Vergleich 
10 zwischen dem zu bewertenden Sprachsignal mit einem Referenzsprachsignal Unterschiede 
zwischen beiden Signalabschnitten in der gewahlten Darstellungsebene in den zu 
berechnenden Qualitatskennwert einfliefien, die nicht oder kaum zu einer - auch im 
auditiveri Test wahrnehmbaren - qualitativen Beeintrachtigung fuhren. 

15 Im Rahmen der hier betrachteten Sprachubertragung in Telefonanwendungen tragen 

Frequenzbandbegrenzungen und spektrale Verformungen des zu bewertenden Sprachsignals 
(z.B. hervorgerufen durch Filtereigenschaften des Telefongerates oder des 
Ubertragungskanals) nur begrenzt zu einer empfundenen qualitativen Beeintrachtigung bei. 

20 Um diese Mangel teilweise zu vermeiden, wird in einem anderen Ansatz versucht, die 
linearen Verzerrungen (Frequenzgang) durch ein Korrekturfilter bzw. eine 
Leistungstibertragungsfunktion zu kompensieren (veroffentlicht in: "A new approach to 
objective quality-measures based on attribute-matching", Halka, U.; Heute, II, Speech 
communication, 1 1(1992)1, S. 15-30). Die Anwendung dieses Verfahrens ist jedoch bei 

25 nichtlinearer und zeitinvarianter Ubertragung nachteilig, da die so berechnete 

Kompensationsfiinktion nicht mehr ausschlieJ31ich die spektralen" Verformungen des zu 
bewertenden Signals beschreibt. 

Verschiebungen spektraler Kurzzeit-Maxima ("Formantverschiebungen") im zu testenden 
Signal gegenuber dem Referenzsprachsignal, z.B. verursacht durch Codiersysteme mit 
30 niedriger Bitrate, fuhren bei bekannten Verfahren zu grofien Unterschieden in den 

spektralen Intensitatsabbildungen und gehen damit stark in den berechneten Qualitatswert 
ein. Untersuchungen haben ergeben, daB in einer auditiven Sprachqualitatsuntersuchung 
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diese Verschiebungen spektraler Kurzzeit-Maxima jedoch nur begrenzten EinfluB auf das 
Qualitatsurteil haben. 


Aufgabe 

Die Erfindung stellt sich die Aufgabe, den EinfluB von spektralen Begrenzungen und 
Verformungen des zu bewertenden Sprachsignals sowie von Verschiebungen spektraler 
Kurzzeit-Maxima vor dem Vergleich der spektralen Eigenschaften eines zu testenden 
Signals mit einem Referenzsprachsignal und der Berechnung eines Qualitatswertes in 
instrumentellen Verfahren zu reduzieren. 

Losung 

Im Gegensatz zu bekannten Ansatzen wird in der hier beschriebenen Erfindung eine 
spektrale Wichtungsfunktion generiert, die auf mittleren spektralen Einhullenden, z.B. der 
mittleren spektralen Leistungsdichte, von zu bewertendem Sprachsignal und 
Referenzsprachsignal beruht. Dies ermoglicht den Einsatz des Verfahrens ebenfalls bei 
nichtlinearer und zeitvarianter Ubertragung. 

Die spektrale Wichtungsfunktion wird aus den Quotienten der Stutzwerte der mittleren 
spektralen Leistungsdichte des zu bewertenden Signals Phi^f) und der des Eingangssignals 
des Ubertragungssystems Phix(f) derart berechnet, daB die Wichtungs- 
funktion iiber 

W T (f) = a(f) - (Phi Y (f) / Phix(f)) 

zu beschreiben ist. Die Bewertungsfunktion a(f) kann die Wichtungsfunktion Wr(f) an iiber 
den Wirkungsbereich unterschiedlich gewichten, sie ist im einfachsten Falle konstant 1. 


Die derart berechnete spektrale Wichtungsfunktion Wx<r) nahert die mittleren spektralen 
Einhullenden von zu bewertenden Sprachsignal und Referenzsprachsignal einander an, so 
daB Unterschiede der beiden spektralen Einhullenden nur noch vermindert in den 
30 berechneten Qualitatswert einfliefien. 
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Die spektrale Wichtungsfiinktion W T (f) kann zum einen auf das Referenzsprachsignal 
angewendet werden. Dabei wird das Referenzsprachsignal in seiner mittleren spektralen 
Leistungsdichte dem zu bewertenden Signal angenahert (Fig. 2a). 

5 Zum anderen kann die spektrale Wichtungsfiinktion invertiert auf das zu bewertende Signal 
angewendet werden. Dieses wird dadurch entzerrt und, hinsichtlich seiner mittleren 
spektralen Leistungsdichte, an das Referenzsprachsignal angenahert (Fig. 2b). 

Ein weiterer Teil der Erfindung bezieht sich auf die Korrektur von Verschiebungen 
10 spektraler Kurzzeit-Maxima, die durch die Ubertragungssysteme verursacht werden. 

Die Intensitat wird fur jeden Zeitabschnitt in Frequenzbandern integriert. Resultat ist eine 
Reihe von Intensitatswerten fur jede spektrale Darstellung eines Signalabschnitts, wobei 
jeder Einzelwert die Intensitat in einem Frequenzband reprasentiert. Die Verschiebungen 
15 spektraler Kurzzeit-Maxima konnen hierbei zu abweichenden berechneten Intensitaten in 
den Frequenzbandern von Referenzsprachsignal und zu bewertenden Sprachsignal fiihren. 

Diese Abweichungen in den spektralen Intensitatsabbildungen - verursacht Verschiebungen 
spektraler Kurzzeit-Maxima -konnen durch eine variable Anordnung der Frequenzbander 

20 auf der Frequenzachse reduziert werden. Im Gegensatz zu den konstanten Bandgrenzen bei 
bekannten Verfahren werden die Bandgrenzen auf der Frequenzachse verschoben. Die Zahl 
der Frequenzbander und deren Index bleibt aber konstant . In einer Optimierungsschleife 
werden dann diejenigen Bandgrenzen akzeptiert, bei denen die beiden entstehenden 
spektralen Abbildungen von zu bewertenden Sprachsignal und Referenzsprachsignal 

25 maximale Ahnlichkeit aufweisen bzw. deren Abstand minimal ist • Diese Optimierung wird 
fur alle Bander in alien betrachteten Zeitsegmenten durchgefuhrt. 

Der Einsatz variabler Bandgrenzen zur Berechnung der spektralen Intensitat sabbildung ist 
nicht nur auf das Signal, in dem auch die beschriebene spektrale Wichtungsfiinktion 
30 W-r(f) zum Einsatz kommt, beschrankt, sondern kann auch auf das jeweils andere Signal und 
sogar auf beide Signale angewendet werden. (vgl. Fig. 2a und 2b). 
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Ausfuhrungsbeispiel: 

Ein spezielles Ausfuhrungsbeispiel zeigt eine Realisierung gemafi Fig. 3, die als TOSQA 
(Telecommunication Objective Speech Quality Assessment) bezeichnet wird. Hierbei erfolgt 
5 eine erweiterte Vorverarbeitung des Referenzsprachsignals. 

In Spezifikation der allgemeinen Realisiemngen nach Fig. 2a und 2b werden hier 
Sprachpausen mittels eines Sprachpausenerkenners erkannt und gehen nicht in das 
QualitatsmaB ein. Ebenfalls erfolgt eine Filterung von Referenzsprachsignal und zu 
10 bewertendem Sprachsignal mit einem BandpaB 300. ..3400 Hz sowie eine Filterung auf den 
Frequenzgang eines Telefonhandapparates. Die Integration der spektralen Leistungsdichte 
erfolgt in Frequenzgruppen, die die Basis fur die Berechnung der spezifischen Lautheit 
darstellen. 

15 Die Integration in Frequenzgruppen erfolgt jedoch nicht in festen Frequenzgruppengrenzen, 
sondern mit den in dieser Erfindung beschriebenen variablen Frequenzgruppengrenzen. Die 
berechneten Signalleistungen in den so modifizierten Frequenzgruppen bilden die Basis fur 
die Intensitatsberechnung. Hier wurde auf ein Modell zur Berechnung der spezifischen 
Lautheit nach Zwicker, einer gehorrichtigen Intensitatsabbildung, zurlickgegriffen 

20 (veroffentlicht in Zwicker, E.: "Psychoakustik", Berlin: Springer- Verlag, 1982). 

Die berechneten Lautheitsmuster werden in Erganzung des allgemeinen Ansatzes noch 
durch eine Fehlerbewertungsfunktion erganzt. Der berechnete Qualitatswert wird uber einen 
Mittelwert der Korrelationskoeffizienten der spezifischen Lautheiten fur jedes betrachtete 
25 kurze Zeitsegment uber die Zahl der ausgewerteten Sprachsegmente gebildet. 
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Patentanspriiche (6) 

1. Verfahren zur instrumentellen Sprachqualitatsbestimmung, bei dem durch Vergleich 
von spektralen Kurzzeiteigenschaften eines zu bewertenden Sprachsignals mit einem 
Referenzsprachsignal Kennwerte zur Bestimmung der Sprachqualitat berechnet 
werden, dadurch gekennzeichnet, 

daB vor dem Vergleich der Eigenschaften der Sprachsignale, Unterschiede in mittleren 
spektralen Einhullenden verringert werden, indem aus diesen zuerst eine spektrale 
Wichtungsfunktion berechnet wird, mit der die spektralen Kurzzeit-eigenschaften der 
Sprachsignale in alien betrachteten Zeitsegmenten gewichtet werden, so daB die 
Unterschiede in den mittleren spektralen Einhullenden dadurch nur begrenzt in den zu 
berechnenden Qualitatskennwert einflieBen, und 

daB'fiir die Berechnung der Signalintensitat die Grenzen der benutzten Frequenzbander 
variabel gestaltet werden, so daB fur jeden betrachteten Signalabschnitt in jeweils alien 
ausgewerteten Frequenzbandern die berechneten Intensitaten von 
Referenzsprachsignal und zu bewertendem Signal zueinander moglichst geringe 
Unterschiede aufweisen. 

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daB zuerst die mittleren 
spektralen Einhullenden von zu bewertenden Sprachsignal und Referenzsprachsignal in 
Form eines mittleren Leistungsdichtespektrums berechnet werden und aus dem 
Quotienten beider Spektren eine spektrale Wichtungsfunktion W T (f) berechnet wird, 
mit der die Kurzzeit-Leistungsdichtespektren des Referenzsprachsignals vor der 
Berechnung eines Qualitatskennwertes gewichtet werden. 

3. Verfahren nach Anspruch 1 und 2, dadurch gekennzeichnet, daB die zu berechnende 
Wichtungsfunktion Wx(f) nur aus Teilbereichen der berechneten mittleren spektralen 
Einhullenden von zu bewertenden Sprachsignal und Referenzsprachsignal berechnet 
wird und damit die Unterschiede in mittleren spektralen Einhullenden zwischen beiden 
Signalen nur in spektralen Teilbereichen verringert werden. 

4. Verfahren nach Anspruch 1 bis 3, dadurch gekennzeichnet, daB vor Berechnung der 
Qualitatskennwerte eine Integration der Signalintensitat fur jeden ausgewerteten 
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kurzen Zeitabschnitt in Frequenzgruppen erfolgt, wobei die Grenzen der 
Frequenzgruppen auf der Frequenzachse variabel sind, aber die Breite der 
Frequenzgruppen auf der Tonheitskala konstant bleibt, und daB aus den Signal- 
intensitaten in den Frequenzgruppen eine Berechnung der spezifischen Lautheit erfolgt, 
wobei die Grenzen der Frequenzgruppen benutzt werden, bei denen die berechneten 
Unterschiede in der spezifischen Lautheit zwischen dera zu bewertenden Signal und 
dem Referenzsprachsignal im jeweils betrachteten Band und Zeitsegment den 
geringsten Unterschied aufweisen. 


Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, daB der Qualitats-kennwert 
aus der Ahnlichkeit der spektralen Darsteliungen in jedem betrachteten Zeitabschnitt 
berechnet wird, wobei die Ahnlichkeit einen iiber alle betrachteten Zeitabschnitte 
gerhittelten KorrelationskoefEzienten zwischen der spektralen Darstellung des zu 
bewertenden Sprachsignals und der spektralen DarsteUung des Referenzsprachsignals 
im jeweiligen Zeitsegment darstellt. 


Verfahren nach Anspruch 5, dadurch gekennzeichnet, daB der Korrelations-koeffizi 
zwischen der spektralen DarsteUung des zu bewertenden Sprachsignals und der 
spektralen Darstellung des Referenzsprachsignals im jeweiligen Zeitsegment 
einem Teilbereich der spektralen DarsteUung berechnet wird, d.h. fur die Berechnung 
des Qualitatskennwertes nicht aUe berechneten Spektralwerte berucksicbtigt werden. 
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